Model Selection

RLHF Security Research

# RLHF Security Research

Rlhf 7b Harmless

This is a 7B-parameter harmless generation model designed for benchmarking RLHF (Reinforcement Learning from Human Feedback) poisoning attacks.

Large Language Model

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase